首页> 外文OA文献 >A Learning Based Approach to Control Synthesis of Markov Decision Processes for Linear Temporal Logic Specifications
【2h】

A Learning Based Approach to Control Synthesis of Markov Decision Processes for Linear Temporal Logic Specifications

机译:基于学习的马尔可夫决策控制综合方法   线性时序逻辑规范的过程

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

We propose to synthesize a control policy for a Markov decision process (MDP)such that the resulting traces of the MDP satisfy a linear temporal logic (LTL)property. We construct a product MDP that incorporates a deterministic Rabinautomaton generated from the desired LTL property. The reward function of theproduct MDP is defined from the acceptance condition of the Rabin automaton.This construction allows us to apply techniques from learning theory to theproblem of synthesis for LTL specifications even when the transitionprobabilities are not known a priori. We prove that our method is guaranteed tofind a controller that satisfies the LTL property with probability one if sucha policy exists, and we suggest empirically with a case study in trafficcontrol that our method produces reasonable control strategies even when theLTL property cannot be satisfied with probability one.
机译:我们建议为马尔可夫决策过程(MDP)综合控制策略,以使MDP的最终轨迹满足线性时间逻辑(LTL)属性。我们构建了一个产品MDP,该产品合并了从所需LTL属性生成的确定性Rabinautomaton。产品MDP的奖励函数是根据Rabin自动机的接受条件定义的。此构造使我们能够将学习理论中的技术应用于LTL规格的合成问题,即使先验未知的转换概率也是如此。我们证明,如果存在这样的策略,我们的方法可以保证找到一个满足LTL属性的控制器(如果存在这样一种策略),并且通过对交通控制的案例研究,我们建议即使在LTL属性不能满足概率1的情况下,我们的方法也可以产生合理的控制策略。 。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号